Selecting an effective training signal for tasks in natural language processing is difficult: collecting expert annotations is expensive, and crowd-sourced annotations may not be reliable. At the same time, recent work in machine learning has demonstrated that learning from soft-labels acquired from crowd annotations can be effective, especially when there is distribution shift in the test set. However, the best method for acquiring these soft labels is inconsistent across tasks. This paper proposes new methods for acquiring soft-labels from crowd-annotations by aggregating the distributions produced by existing methods. In particular, we propose to find a distribution over classes by learning from multiple-views of crowd annotations via temperature scaling and finding the Jensen-Shannon centroid of their distributions. We demonstrate that using these aggregation methods leads to best or near-best performance across four NLP tasks on out-of-domain test sets, mitigating fluctuations in performance when using the constituent methods on their own. Additionally, these methods result in best or near-best uncertainty estimation across tasks. We argue that aggregating different views of crowd-annotations as soft-labels is an effective way to ensure performance which is as good or better than the best individual view, which is useful given the inconsistency in performance of the individual methods.
translated by 谷歌翻译
目前,自然语言理解(NLU)中最根本的两个挑战是:(a)如何以“正确”的原因确定基于深度学习的模型是否在NLU基准上得分很高;(b)了解这些原因甚至是什么。我们研究了关于两个语言“技能”的阅读理解模型的行为:核心分辨率和比较。我们为从系统中预期的推理步骤提出了一个定义,该系统将“缓慢阅读”,并将其与各种大小的贝特家族的五个模型的行为进行比较,这是通过显着分数和反事实解释观察到的。我们发现,对于比较(而不是核心),基于较大编码器的系统更有可能依靠“正确”的信息,但即使他们在概括方面也很难,表明他们仍然学习特定的词汇模式,而不是比较的一般原则。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
尽管试图提高政治性别平等,但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中,我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此,我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论,这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言,还解决了其他偏见的表现,例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后,我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见,评估社交媒体语言和话语中存在的覆盖范围,组合,名义,感性和词汇偏见。总体而言,我们发现,与以前的研究相反,覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视,这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名,并与他们的身体,衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中,这种差异最大,尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。
translated by 谷歌翻译
事实检查系统已成为验证假冒误导性新闻的重要工具。当人类可读的解释陪真实性标签,这些系统变得更值得信赖。然而,这样的解释人工收集是昂贵的和耗时的。最近的作品帧解释代采掘总结,并提出从专业记者的执政评论(RCS)自动选择最重要的事实有足够的子集,以获得事实查证的解释。然而,这些解释缺乏流畅性和连贯的句子。在这项工作中,我们提出了一个迭代编辑为基础的算法只使用短语级的编辑进行断开驻地协调员监督的后期编辑。为了规范我们的加工算法,我们使用的组件,包括流畅性和语义保留一个计分函数。此外,我们显示我们的方法在完全无人监管环境的适用性。我们有两个标准数据集实验,LIAR-PLUS和PubHealth。我们表明,我们的模型生成的流畅,可读性强,非冗余的解释,并覆盖的事实检查的重要信息。
translated by 谷歌翻译
已经做出了许多努力,试图理解什么语法知识(例如,理解代币的语音部分的能力)是在大型预训练的语言模型(LM)中编码的。这是通过“边缘探测”(EP)测试完成的:监督分类任务,以预测SPAN的语法属性(是否具有语音的特定部分)仅使用来自LM编码器的令牌表示。但是,大多数NLP应用程序对这些LM编码器进行了微调,以用于特定任务。在这里,我们问:如果通过EP测试来衡量,LM是否进行了微调,它的语言信息的编码会改变吗?具体来说,我们专注于回答(QA)的任务,并在多个数据集上进行实验。我们发现,当微调模型表现良好或在模型被迫学习错误的相关性的对抗情况下,EP测试结果不会发生显着变化。从类似的发现来看,最近的一些论文得出结论,微调不会改变编码器中的语言知识,但它们没有提供解释。我们发现,EP模型本身容易利用EP数据集中的虚假相关性。当纠正该数据集偏差时,我们确实会看到EP测试结果的改善。
translated by 谷歌翻译
姿态检测的目标是确定以目标朝向目标的文本中表达的视点。这些观点或上下文通常以许多不同的语言表达,这取决于用户和平台,这可以是本地新闻插座,社交媒体平台,新闻论坛等。然而,姿态检测的大多数研究已经限于使用单一语言和几个有限的目标,在交叉舌姿态检测很少有效。此外,标记数据的非英语来源通常稀缺,并具有额外的挑战。最近,大型多语言语言模型在许多非英语任务上大大提高了性能,尤其是具有有限数量的示例。这突出了模型预培训的重要性及其从少数例子中学习的能力。在本文中,我们展示了对日期交叉姿态检测的最全面的研究:我们在6名语言系列中使用12种语言的12种不同的数据集进行实验,每个都有6个低资源评估设置。对于我们的实验,我们构建了模式开发培训,提出了添加一种新颖的标签编码器来简化言语程序。我们进一步提出了基于情绪的姿态数据进行预培训,这在与几个强的基线相比,在低拍摄环境中显示了大量的6%F1绝对的增长。
translated by 谷歌翻译
过去十年来看,从有针对性的诽谤运动来影响政治的有针对性的误解和诽谤的数量,从有意地传播对公共卫生的无意识流。这种发展在自动事实检查领域进行了研究,从检测值得索赔和确定推文对索赔的立场,以确定索赔给予证据文件的准确性的方法。这些自动方法通常是基于内容的,使用自然语言处理方法,其又利用深神经网络,从文本中学习高阶功能以便进行预测。由于深神经网络是黑盒式模型,因此无法轻易解释其内部工作。与此同时,希望解释他们如何在某些决定中到达,特别是如果它们要用于决策。虽然这一段时间已知,但这种提出的问题被规模增加的模型加剧,并且由欧盟立法要求用于提供决策提供解释的模型,并且最近通过需要在线平台运行的立法欧盟为其服务提供透明报告。尽管如此,事实上仍然缺乏可解释性的当前解决方案。本文介绍了我对自动事实检查的研究,包括索赔核查商检测,姿态检测和准确性预测。其贡献超越了事实检查,本文提出了更多的一般机器学习解决方案,用于在学习领域的自然语言处理,具有有限标记数据。最后,论文呈现了一些可解释的事实检查的第一个解决方案。
translated by 谷歌翻译
除了近年来,NLP的深度学习模型研究大量研究外,在跟踪建模进度所需的基准数据集上,还进行了许多工作。在这方面,问题回答和阅读理解尤其多,在过去的两年中出现了80多个新数据集。这项研究是迄今为止对该领域的最大调查。我们概述了当前资源的各种格式和域,突出了当前的空白以供将来的工作。我们进一步讨论了当前的“技能”分类,该问题回答/阅读理解系统应该获得,并提出新的分类法。补充材料调查了英语以外的其他语言的当前多语言资源和单语资源,我们讨论了过度关注英语的含义。这项研究针对两位从业者,都在寻找对现有数据的财富以及从事新资源的研究人员的指针。
translated by 谷歌翻译
我们提出了一种具有有限目标语言数据的交叉语言内容标记的新颖框架,这在预测性能方面显着优于现有的工作。该框架基于最近的邻居架构。它是Vanilla K-最近邻模型的现代实例化,因为我们在所有组件中使用变压器表示。我们的框架可以适应新的源语言实例,而无需从头开始侦察。与基于邻域的方法的事先工作不同,我们基于查询邻的交互对邻居信息进行编码。我们提出了两个编码方案,并使用定性和定量分析显示其有效性。我们的评估结果是来自两个不同数据集的八种语言,用于滥用语言检测,在强大的基线上,可以在F1中显示最多9.5(对于意大利语)的大量改进。平均水平,我们在拼图式多语言数据集中的三种语言中实现了3.6的F1改进,2.14在WUL数据集的F1中的改进。
translated by 谷歌翻译